﻿ Cercetări de lingviscă computațională în grupurile NLP@UAIC-FII și NLP@AR-IIT Dan Cristea UAIC-FII AR-IIT dcristea@info uaic ro NLP-Group@UAIC-FII • MLC + drd Daniel Anechitei • info + drd info Paul Diac • conf dr calc Corina Forăscu • ﬁlol + MLC + drd info Andreea Gagea • dr ﬁlos + drd Info Daniela Gîfu • conf dr info Adrian Iene • dr ﬁlol + MLC + drd Info Cătălina Mărănduc • drd Elena Mitocariu • ﬁlol + MLC + dr ﬁlol Augusto Cenel Perez • lect dr info Ionuț Pistol • info + MLC + drd Radu Simionescu • Studenții de la Masteratul de Lingviscă Computațională (MLC-1 și MLC-2) Ro-NLP, Iași, 24 mare 2016 NLP-Group@AR-IIT • mate-info Cecilia Bolea • dr info Alex Moruz • ﬁlol + drd Mihaela Onofrei • info Laura Pistol • info + drd info Andrei Scutelnicu Ro-NLP, Iași, 24 mare 2016 Colaborări externe • Colecvul de la AR-ICIA condus de acad Dan Tuﬁș • dr ﬁlol + MLC Anca Bibiri (Dept Cercetări Interdisciplinare – UAIC) • conf dr Mihaela Colhon (Univ Craiova) • CP 1 + dr ﬁlol Gabriela Haja (AR – Inst Philippide) • CP 1 + dr ﬁlol Isabelle Tamba (AR – Inst Philippide) • CP 1 + dr ﬁlol Marius Clim (AR – Inst Philippide) Ro-NLP, Iași, 24 mare 2016 Construcția de resurse lingvisce • Corpusuri & tezaure – Digizări de dicționare tezaur: eDTLR (2008-2012) – QuoVadis (proiect studențesc MLC, 2013-2015) – RoTB-UAIC (proiecte doctorale, 2007-în curs) – COROLA – AR-IIT, dar și AR-ICIA (proiect prioritar al AR, 2014-2017) Ro-NLP, Iași, 24 mare 2016 Quo-Vadis: entăți • Tipuri: PERSOANĂ/ZEU & GRUP – Personaje (Marcus Vinicius, împăratul), grupuri (creșnii, soldații) – Realizări sintacce: grupuri nominale – Pot ﬁ imbricate: [mama [Ligiei]] Ro-NLP, Iași, 24 mare 2016 Referențiale (coref, part-of…) Relații • [Ligia]… [tânăra frigiană] • Rudenie (parent-of, sibling…) [mama adopvă a [Ligiei]] • Afecve (love, hate…) [Vinicius] înțelese că o iubea pe [tânăra frigiană] • Sociale (inferior-of, colleague-with) [Împăratul] și [curtenii săi] Ro-NLP, Iași, 24 mare 2016 căsătorise Marcus cu Vinicius TYPE="parent-of"> era tatăl of"> acestuia ﬁul TYPE="sibling-of"> surorii TYPE="inferior-of"> sale consul mai pe mari vremea lui Tiberiu , TYPE="spouse-of"> care REFERENTIAL> , cu REFERENTIAL> ani în urmă , REFERENTIAL> se Dezvoltă o tehnologie capabilă să… • recunoască în texte entăți și relații între ele • să răspundă la întrebări relav la entăți și relații • facă raționamente simple despre personaje și relațiile lor • aprecieze empaile pe care anumite personaje le pot trezi în citor • genereze rezumate focalizate pe anumite personaje Ro-NLP, Iași, 24 mare 2016 Funcțiile de colectare, curare, procesare Portal Ro-NLP, Iași, 24 mare 2016 Fluxul de procesare a datelor: Curator – Provider – Portal Portalul COROLA Ro-NLP, Iași, 24 mare 2016 Fluxul de procesare a datelor: Portal – Voluntari - Portal • Curățare • Completare metadate Portalul COROLA Ro-NLP, Iași, 24 mare 2016 Datele sunt documentate: completarea metadatelor CMDI standard Metadata Element Set 1 Document title 2 Author name 3 Publication date 4 Source 5 Source name 6 Translator name 7 Medium 8 Document style 9 Document text domain 10 ISSN/ISBN CMDI – Component MetaData Infrastructure (CLARIN) Un cadru de descriere și reutilizare a metadatelor documentelor Ro-NLP, Iași, 24 mare 2016 Fluxul de procesare a datelor: Portal (adăugare adnotări) Portalul COROLA• Adnotări: • cuvinte și fraze • părți de vorbire • grupuri • sintaxă • semantică • TOKPOSNP pipe-line Ro-NLP, Iași, 24 mare 2016 Ulizarea datelor din corpus: Portal (adăugare adnotări) Portalul COROLA Ro-NLP, Iași, 24 mare 2016 Concordanțe (KWIC – Key Word In Context) … Ro-NLP, Iași, 24 mare 2016 Ulizarea datelor din corpus: Portal (adăugare adnotări) Modele de limbă folosite în antrenamentul sistemelor de TA Portalul COROLA Ro-NLP, Iași, 24 mare 2016 Construcția de instrumente pentru prelucrări lingvisce Ro-NLP, Iași, 24 mare 2016 Construcția de instrumente pentru prelucrări lingvisce Echetare la parte de vorbire (POS tagging) Ro-NLP, Iași, 24 mare 2016 Construcția de instrumente pentru prelucrări lingvisce Recunoașterea grupurilor nominale (NP chunking) Ro-NLP, Iași, 24 mare 2016 Construcția de instrumente pentru prelucrări lingvisce Parsare sintaccă (arbori de dependență) Ro-NLP, Iași, 24 mare 2016 MappingBooks • Tehnologie de adnotare a textelor cu informație auxiliară relavă la nume de entăți geograﬁce • Legături sensibile la: – contextul mențiunii din carte – locația curentă a citorului – momentul în care citorul inițiază un acces – personalitatea citorului Ro-NLP, Iași, 24 mare 2016 MappingBooks Ulizarea informației textuale în MappingBooks TA = Text Analytics NER = Name Entity Recognition AR = Augmented Reality EC = Entity Crowling DEV = Device Info RD = Relations Detection INT = Interfaces GEO = Geography RES = Resources M&T = Maps and Trajectories M&E = Management and Evaluation Ro-NLP, Iași, 24 mare 2016 MappingBooks se adresează… • Elevilor – pentru a-i face din nou să citească (pierdutul paradis al minunatelor cărți) • Adolescenților, aventurierilor, călătorilor, montagnarzilor – dornici să schimbe păreri despre călătorii comune • Editorilor deținători de date textuale – pentru a-și vinde mai bine cărțile • Administrațiilor locale și agențiilor turisce – pentru a face reclamă locurilor menționate în cărți celebre… Ro-NLP, Iași, 24 mare 2016 Zona discursului: dezvoltări ale Teoriei Nervurilor (Cristea, Ide, Romary, 1998) • Elena Mitocariu: – măsuri de similaritate aplicate arborilor de discurs – rezumare bazată pe nuclearitate • Daniel Anechitei: – corpusul MASC adnotat cu marcheri de discurs – la Vassar College – reducerea spațiului soluțiilor în generarea arborilor de discurs => obiecvarea adnotării structurilor retorice prin micșorarea nedeterminismului – realizarea de instrumente: segmentator al frazei în clauze, rezolvitor de anafore, vizualizator, recunoscător de nume de entăți, rezumator Ro-NLP, Iași, 24 mare 2016 Trees as in RST relations nuclear 4 1 labeled units H = 1 9 * V = 1 9 * H = 1H = 9 V = 1 9 *V = 1 9 * 2 3 H = 1H = 5H = 9 V = 1 9 *V = 1 5 9 *V = 1 9 * = 1H = 3H = 6 7H = 9??-??H V = 1 9 *V = 1 3 5 9 *V = 1 5 6 7 9 *V = 1 9 * 5H = 9 13-?? V = 1 (8) 9 * 123467H = 10 8 V = 1 9 10 * H = 11 = 39H V = 1 9 10 11 * V = 1 3 5 9 = 1 3H = 910DRA V = 1 (8) 9 1112 DRA = 1 8 9 Ro-NLP, Iași, 24 mare 2016 Adjuncția Ro-NLP, Iași, 24 mare 2016 Mecanisme simbolice: GGS • Radu Simionescu: – Graphical Grammar Studio: un mecanism de analiză graﬁc și interacv, care a plecat de la NOOJ (expresii regulate) a ajuns la complexitatea mașinilor Turing – aplicații: • îmbunătățirea POS-taggerelor prin reguli de corectare a erorilor frecvente • recunoașterea numelor de entăți (MappingBooks) • limbaj de interogare pentru COROLA (constrângeri) Ro-NLP, Iași, 24 mare 2016 GGS: nume de entăți Ro-NLP, Iași, 24 mare 2016 Studiu comparav lexical diacronic al limbii române vorbite de o parte și de alta a Prutului • Daniela Gîfu: Corpus de texte Ro-NLP, Iași, 24 mare 2016 Temporalitate în text • Andreea Gagea: determinarea planurilor (câmpurilor) temporale, rupturi temporale, întoarceri în mp – puri de planuri: • NAR –narav • SUP – al supozițiilor • GEN – al cunoașterii generale • FIC – al ﬁcțiunii – perspecve • Lucrăm la elaborarea unui manual de adnotare (MLC-1) – Tash Aw Exemplu Între două reprize de bulion și o rapidă clămpănire pe Facebook, mi-am amint că am așezat printre cărțile echetate cu „neapărat de cit“ volumul lui Teodor Baconschi, Facebook Fabrica de narcisism, apărută anul acesta la Editura Humanitas N-am putut să mă despart de el până la capăt Ro-NLP, Iași, 24 mare 2016 Adnotări Între două reprize de bulion și o rapidă clămpănire pe Facebook, mi-am amint că am așezat printre cărțile echetate cu „neapărat de cit“ volumul lui Teodor Baconschi, Facebook Fabrica de narcisism, apărut anul acesta la Editura Humanitas N-am putut să mă despart de el până la capăt Ro-NLP, Iași, 24 mare 2016 Planuri (câmpuri) temporale Ro-NLP, Iași, 24 mare 2016 Ro-NLP, Iași, 24 mare 2016 Seria de Școli de Vară EUROLAN Inițiată în 1993 • Inițiată în 1993 În colaborare cu Academia Română Ro-NLP, Iași, 24 mare 2016 Seria anuală de conferințe “Resurse lingvistice și instrumente pentru prelucrarea limbii române” • Inițiată în 2001 În colaborare cu Academia Română Ro-NLP, Iași, 24 mare 2016 Mulțumesc! Ro-NLP, Iași, 24 mare 2016 